@微光
2年前 提问
1个回答

大规模公有云的潜在问题包括哪些方面

一颗小胡椒
2年前

大规模公有云的潜在问题包括以下方面:

  • 成本:最初使用公有云时,仅允许有限的少数几个人访问,这时跟踪成本相对简单。然而,随着更多(通常是相互独立的)部门中越来越多的人获得访问权限,你可能会遇到功能重复、过度供应、未经授权的采购、未使用的“僵尸”实例、多余的带宽和存储费用,以及其他一些不必要的影响因素,这些不断蚕食着预期的成本预算。

  • 未经授权的访问:对小规模的公有云服务访问的管理相对简单,但是随着公有云的采用规模逐渐增加,管理将很快失控。公司的前雇员在离职后可能仍然保留访问权限,员工的角色变化后,并没有相应地更新访问权限,新员工难以访问到所需的资源等。由于多数云服务提供者无法提供企业级的安全保障,随着逐步扩大公有云的采用规模,你将很快成为未经授权的访问的牺牲品。

  • 恶意入侵:比员工的访问权限控制问题更严重的是外部对云服务的恶意入侵。密码丢失、共享的用户ID、数据泄漏、简单密码、社会工程学、网络钓鱼和恶意软件都有可能使公有云服务暴露在数据丢失、篡改、攻击、拒绝服务和其他恶意入侵的威胁之下。

  • 人为失误:公有云服务规模较小时,通过人工就可方便地管理,但随着规模的不断扩大,不可能持续地增加人力以维持其可管理性。这就意味着更少的人做更多的工作,均衡法则告诉我们最终肯定会有人犯错误,进而可能会导致大规模的故障。尽管这并不是云服务独有的问题。

  • 可见性低:当只有少数几个服务时,管理可以很细致,只要一两个人就可以了解这些服务的部署位置、配置方式、成本花费、使用情况、所属关系、问题原因、解决方案、服务关闭时间、恢复办法等。然而,在规模较大的系统中,随着公有云部署规模的不断扩大和更多用例的访问放开,云的使用情况将变得越来越难以捉摸。

  • 分类诊断困难:可见性差导致的后果之一就是使问题的分类诊断也变得更加困难。例如,如果不知道系统运行在哪里或者它如何与其他的服务连接,基本上就无法确定事务流变慢的原因。系统思维方面的专家爱德华·戴敏曾经说过:“不可衡量者不可管理”。也许更恰当的说法是:“知己知彼,方能百战不殆”。

  • 可恢复性低:尽管严重的停机故障并非云所独有,但是几乎每周我们都会听到新的令人关注的公有云故障的报道。然而多数云服务提供者,特别是商品化服务,并未内置恢复功能;即便是更加健壮的服务,也可能无法提供及时的恢复服务或优先考虑某个用户的业务需求。如果没有系统可用于备份、故障转移和恢复,停机故障就在所难免且后果严重。